설치 가이드¶

아래의 설치 가이드를 참고하여 설치를 시작할 수 있습니다. RBLN 컴파일러(rebel-compiler)와 vllm-rbln의 설치를 진행하기 위해서는 RBLN Portal 계정이 필요합니다. 포탈 계정과 관련된 자세한 내용은 문의 페이지를 참고하시기 바랍니다.

1. RBLN 드라이버¶

Note

RBLN 드라이버는 주로 온프레미스 서버(on-premise server)용입니다.
서버에서 ls /dev/rbln* 명령어를 실행하여 RBLN NPU 장치가 보인다면, 드라이버 설치를 건너뛰셔도 됩니다.

RBLN 드라이버는 리눅스 커널 드라이버와 펌웨어를 포함하여, 운영체제가 RBLN NPU 장치를 인식할 수 있도록 합니다. 일반적으로 클라우드 서버에는 사전 설치되어 있습니다.

주요 특징¶

커널 드라이버 & 펌웨어: OS가 RBLN NPU와 인터페이스하기 위해 필요합니다.
패키지 형식: Ubuntu용(.deb) 및 RedHat용(.rpm) 패키지로 제공됩니다.

설치¶

Ubuntu
1
$ sudo dpkg -i rbln_driver.deb
RedHat
1
$ sudo rpm -i rbln_driver.rpm

추가 참고 사항¶

온프레미스 서버에서 설치할 경우 루트 권한이 필요합니다.
.deb 또는 .rpm 파일이 필요한 경우, 문의 페이지를 참고해 주세요.

2. RBLN 컴파일러¶

RBLN 컴파일러는 RBLN SDK의 핵심 구성 요소로, 사전 훈련된 모델을 RBLN NPU에서 실행 가능한 형식으로 변환합니다. 또한 파이썬 및 C/C++ 런타임과 프로파일링 도구를 제공합니다. RBLN 컴파일러를 설치하기 위해서는 RBLN Portal 계정이 필요합니다.

주요 특징¶

컴파일 API: 사전 훈련된 모델을 RBLN NPU 실행 형식으로 변환합니다.
런타임 API:
1. 파이썬 런타임: .whl 패키지로 설치합니다.
2. C/C++ 런타임: GPG 키 등록과 apt 기반 설치가 필요합니다. 자세한 내용은 C/C++ 런타임 설치를 참조하세요.
프로파일러 지원: RBLN Profiler를 통해 성능 분석 및 최적화를 제공합니다.

설치¶

.whl 패키지로 배포되며, pip을 사용하여 설치할 수 있습니다:

$ pip3 install -i https://pypi.rbln.ai/simple/ rebel-compiler

3. HuggingFace 모델 지원 (`optimum-rbln`)¶

optimum-rbln은 허깅페이스 API와 통합되어, transformers와 diffusers로 훈련 된 모델들을 RBLN NPU에서 손쉽게 컴파일하고 실행할 수 있도록 지원합니다.

주요 특징¶

HuggingFace 통합: transformers와 diffusers를 통한 RBLN 기반 추론을 지원합니다.
간편한 배포: RBLN NPU에서 모델 로딩 및 최적화를 용이하게 합니다.

설치¶

.whl 패키지로 배포되며, 다음 명령어로 설치할 수 있습니다:

$ pip3 install optimum-rbln

4. RBLN 모델주¶

RBLN 모델주는 RBLN NPU에서 다양한 사전 훈련된 모델을 컴파일 및 실행할 수 있도록 미리 준비된 예제들을 제공합니다. 자체 모델을 적용하려는 사용자에게 유용한 참고 자료로 활용될 수 있습니다.

주요 특징¶

사전 훈련된 모델: 다양한 인기 사전 훈련 모델에 대한 스크립트 모음을 포함합니다.
구현 가이드: RBLN NPU를 이용하여 모델의 컴파일 및 실행 시나리오를 개발하는 방법에 대한 단계별 지침을 제공합니다.

설치¶

GitHub에서 호스팅되며, 다음 명령어로 저장소를 클론할 수 있습니다:

$ git clone --recursive https://github.com/rebellions-sw/rbln-model-zoo.git

5. 서빙 프레임워크 지원¶

서빙 프레임워크 지원은 RBLN NPU를 vLLM, Nvidia Triton Inference Server, 그리고 TorchServe와 같은 인기 서빙 솔루션과 통합할 수 있도록 합니다.

주요 특징¶

vLLM 지원 (vllm-rbln)
- RBLN NPU에서 대형 언어 모델(LLM)을 서빙하기 위한 맞춤형 vLLM 솔루션입니다.
- .whl 패키지로 배포됩니다.
- vllm-rbln 설치를 위해서는 RBLN Portal 계정이 필요합니다.
Nvidia Triton Inference Server 지원
- 자세한 설정은 Nvidia Triton Inference Server 지원를 참조하세요.
TorchServe 지원
- 설치 및 사용법은 TorchServe 지원를 참조하세요.

설치¶

vLLM 지원 (vllm-rbln)

$ pip3 install -i https://pypi.rbln.ai/simple/ vllm-rbln

Nvidia Triton 추론 서버 및 TorchServe
- Nvidia Triton 추론 서버와 TorchServe 문서를 참조하여 설정 및 통합 방법을 확인하세요.

RBLN SDK 설치가 성공적으로 완료되었습니다. 이제 파이토치 및 텐서플로우 모델을 RBLN NPU에서 실행할 준비가 되었습니다. RBLN SDK를 사용하기 위한 상세한 사용법은 튜토리얼을 참고해 주시기 바랍니다.

설치 가이드¶

1. RBLN 드라이버¶

주요 특징¶

설치¶

추가 참고 사항¶

2. RBLN 컴파일러¶

주요 특징¶

설치¶

3. HuggingFace 모델 지원 (optimum-rbln)¶

주요 특징¶

설치¶

4. RBLN 모델주¶

주요 특징¶

설치¶

5. 서빙 프레임워크 지원¶

주요 특징¶

설치¶

3. HuggingFace 모델 지원 (`optimum-rbln`)¶